第1章 分子・ゲノムに関する基礎知識
https://gyazo.com/be37df568f4f6e56cff7f5402add1cef
https://amzn.to/34Cj3se
1.1 生命情報とは
ゲノム(genome)
生物がもつ遺伝情報の総体
ゲノムの中にはいくつもの遺伝子がある
ゲノムは生物により様々な大きさや形をとる
コドン(codon)
遺伝子の塩基の並び
これをもとに作られたタンパク質の機能は、個々のアミノ酸の物理化学的性質の組み合わせによって決められており、生物の形やはたらきを支配している
セントラルドグマ(central dogma)
https://gyazo.com/d3fe0b9cb1acde95b6249f8a079b66ce
DNAが持つ情報がmRNAに転写(transcription)され、タンパク質(protein)に翻訳(translation)されるという基本原理
遺伝(heredity)
進化(evolution)
本章の中でとくに重要な項目は突然変異(変異, mutation)の発生について
自然選択(natural selection)
突然変異の結果、生物個体の形やはたらきが変化すると、個体がもつ遺伝情報が次の世代に伝わる確率が変わりうる
このように遺伝情報が変化しながら次世代に伝えられることによって、生物の進化が起こる
遺伝情報の本質の一つは、時間とともに変化すること
生物が持つ情報を考えるにあたって、進化の考え方は欠かせない
1.2 細胞の構造
細胞(cell)
生物のからだを構成する基本要素
脂質二重膜である細胞膜に囲まれた構造体
細胞膜によって外界と隔てられており、細胞質基質で満たされている
原核細胞
真核細胞よりも単純な構造をしている
真核細胞
原核細胞と区別する最も大きな違いは、核(nuclear)の中に遺伝物質であるDNAが含まれていること
真核生物のDNAはヒストン(histone)と呼ばれるタンパク質に巻き付いて存在している
クロマチン(chromatin)
DNAとヒストンなどのタンパク質の複合体
原核生物(prokaryote)
原核細胞からなる生物
すべて単細胞からなる生物
真核生物(eukaryote)
真核細胞からなる生物
単細胞からなるものと多細胞からなるものが存在する
ヒト(Homo sapiens)成人のからだを構成する細胞の数は、およそ37兆個と見積もられている
オルガネラ(細胞小器官, organelle)
ミトコンドリア(mitochondria)、ゴルジ体、小胞体、リボソーム(ribosome)などの多様な構造体
植物などの光合成を行う生物は葉緑体(chloroplast)、またはプラスチドと呼ばれるオルガネラをもつ
ミトコンドリアと葉緑体は独自のゲノムをもち、細胞内共生(endosymbiosis)によって獲得されたと考えられている
真核生物では、核の中で遺伝情報の転写が行われ、核外のリボソームで翻訳が行われる
https://gyazo.com/c27391d5a8163d0d4b304abc452c964e
リボソームは小胞体上または細胞質中に存在し、リボソームRNA(rRNA)とタンパク質の複合体からなる
多細胞生物の細胞には、体細胞(somatic cell)と生殖系列細胞(germ line cell)が存在する
体細胞
ヒトでいうと目、皮膚、肝臓、心臓のような組織・臓器を構成する細胞であり、細胞分裂によって増殖することがある
体細胞がもつ遺伝情報は次世代には伝わらない
生殖系列細胞
将来的に卵や精子になる細胞であり、その遺伝情報は次世代に受け渡される
これら2種類の細胞は、ヒトのような動物の場合、発生のごく初期に分化し、その後体細胞が生殖系列細胞に変化するようなことは通常起こらない
核移植によるクローンの作製や、遺伝子導入による人工多能性幹細胞(iPS細胞)の作製は、人工的にこの過程を起こさせるもの
1.3 メンデルの遺伝法則
人類が長い間漠然と抱いていた考えのなかでは、遺伝とは液体のようなものの混合によって起こるとされていた
遺伝による形質の混合が起こっているようにみえる
19世紀に遺伝の本質が混合的ではなく、粒子的であるということを実験で証明したのがグレゴール・ヨハン・メンデル(Gregor Johann Mendel)
エンドウ(Pisum sativum)を用い、綿密に計算された膨大な量の交配実験により、遺伝子のもつ性質が、混合されるのではなく分離するということを示した
その後、ロナルド・A・フィッシャー(Ronald A. Fisher)におり、身長のような連続的な形質であっても、小さな効果をもつ多くの遺伝子が分離して遺伝することによって説明することが示された
メンデルの時代には、遺伝子の物質的な正体は不明であった
もちろん細胞の中には存在すると考えられていたのであろうが、この段階では、遺伝子は物質として存在するものというより、抽象的なものとして捉えられていた
遺伝子の正体が細胞分裂時に観察できる染色体(chromosome)上にあるということは、20世紀の初めにウォルター・サットン(Walter Satton)によって提唱され、後にトーマス・ハント・モルガン(Thomas Hunt Morgan)によるキイロショウジョウバエ(Drosophila melanogaster, 以下ショウジョウバエ)を用いた実験によって強く裏づけられた
染色体は細胞分裂時に倍数化し、それぞれの娘細胞に分配される構造体
したがって、遺伝子が染色体上にあると仮定すると、メンデルの法則を物理的に説明できる
後にハーマン・J・マラー(Hermann J. Muller)によって代表される遺伝学者たちは、主にショウジョウバエの交配実験を通して、遺伝の本質を次々に明らかにしていった
遺伝子の物質的な実体がわからなくても、表現型を変える突然変異率(mutation rate)の推定、遺伝子座位(染色体やゲノム上での遺伝子の位置)間の組換え率(recombination rate)の推定など、様々なことが明らかにされていった
1.4 DNAの構造と情報
1.4.1 遺伝子の正体, DNA
遺伝子の物質としての正体を最終的に突き止めたのは、ヒトやショウジョウバエではなく、細菌(バクテリア、bacteria)やファージなどの、より単純な生物を用いた研究者たち
遺伝物質=DNA(デオキシリボ核酸, deoxyribonucleic acid)
オズワルド・エイブリー(Oswald Theodore Avery)による肺炎レンサ球菌(Streptococcus pneumoniae)を用いた実験
アルフレッド・ハーシー(Alfred Day Hershey)とマーサ・チェイス(Martha Cowles Chase)による実験
DNAの二重らせん構造
1953年, ジェームス・ワトソン(James Dewey Watson)とフランシス・クリック(Francis Harry Compton Crick)ら
半保存的複製
マシュー・メセルソン(Matthew Meselson)とフランクリン・スタール(Franklin Stahl)による実験
1.4.2 DNAの構造
DNA
デオキシリボース、リン酸、塩基からできている物質(ヌクレオチド, nucleotide)で、核酸(nuclear acid)の一種
DNAに含まれる塩基
プリン塩基(purine base)
アデニン(adenine)、グアニン(guanine)
ピリミジン塩基(pyrimidine base)
チミン(thymine)、シトシン(cytosine)
デオキシリボースの5'位にはリン酸基が結合しているが、これが別のデオキシリボースの3'位のヒドロキシ基と結合することにより、数珠つなぎ状の1本鎖を作ることができる
https://gyazo.com/6608458605f8ccb46e1abe7700c473b7
生物がもつDNA合成酵素(DNAポリメラーゼ, DNA polymerase)は5’から3’の方向にだけDNAを合成していくことができるので、DNAの1本鎖には方向性がある
1本鎖DNA鎖は、それと逆向きのDNA鎖と相補的に結合する
ある1本鎖DNAに対して相補的な1本鎖DNAのことを相補鎖(complementary strand)とよぶ
2本鎖DNAの塩基はアデニンとチミン、グアニンとシトシンがそれぞれ水素結合(hydrogen bond)によって結びつき、塩基対(base pair)を形成する
前者は2つ、後者は3つの水素結合によって結合する
したがって、グアニンとシトシンを多く含む2本鎖DNA鎖のほうが熱に対して安定
相補鎖と結合した2本鎖のDNAは、右巻きのらせん構造をとる
https://gyazo.com/1c2d13b951e9f53be697f975d03797ed
ここで注意したいのはらせんの回転は、一般的に手前から奥に向かって(または下から上に向かって)右巻きと定義されていること
DNAは左巻きの構造(Z型)をとることも知られているが、生体内では普通観察されない
1.4.3 DNAがもつ情報
塩基配列(nucleotide sequence)
DNAがもつ情報は、一般的に5'から3'方向の塩基の並びを塩基の種類ごとに1文字のアルファベットで表わす
配列の1箇所をサイト(塩基サイト)とよぶ
長さの単位は塩基対(bp)
アデニン、チミン、グアニン、シトシンはそれぞれA, T, G, C
2本鎖DNAでは、片方の鎖の塩基の配列が決まれば相補鎖の情報も自動的に決まるので、片方の情報だけ記しておけば十分
逆相補配列(reverse complement sequence)
塩基配列は常に5’から3’方向の並びで表現するという規則に従うと、相補鎖がもつ情報は、配列を相補的に変換した後に、順序を逆にする必要がある
https://gyazo.com/c3afc5a8b832b675717d7b7a3a7daf53
塩基配列ATGCAAACGTの逆相補配列はACGTTTGCATとなる
塩基が4種類となるので、2ビットの情報があれば4種類の塩基を記述できるが、たとえば塩基配列がエラーにより決まらなかった場合や、両親から受け継いだ情報など、4種類の塩基以外の情報も同時に示したい場合がある
これらを解決するための一般的な表現方法がIUPAC命名法により決められているので、覚えておくと便利
このようなDNAの4種類の塩基の並び方が、遺伝情報の正体
$ n個の長さの塩基対は$ 4^n通りの組み合わせをとる
ヒトの場合、約32億($ 3.2 \times 10^9)bpが23本の染色体上に分かれて存在する
ヒトは両親から半分の染色体セットを引き継ぐので、両親の分を考えると約64億($ 6.4 \times 10^9)bpとなる
父方由来、母方由来の塩基配列の違いは、塩基あたりおよそ0.07~0.10%
1.5 ゲノムの多様性
1.5.1 核相
真核生物は多くの場合、単数体と二倍体の核相(phase)をもつ
ヒトの場合、減数分裂を行った配偶子は単数体であり、受精により二倍体となる
二倍体(diploid)
両親から半分ずつのゲノムを引き継いでいるもの
単数体(haploid)
その半分のゲノムをもつもの
相同染色体(homologous chromosome)
二倍体生物において、父方・母方由来の対を成す染色体どうし
生活環
https://gyazo.com/ea3bed9be5b9f8f4c1e2fffdfabe962b
生物が世代交代により、どのようにゲノムを受け渡していくかを示したもの
遺伝子の水平伝播(horizontal gene transfer)
https://gyazo.com/4bc4c3a35667629a01be60acd66c5a6f
遺伝子が生物種を越えて伝達されること
ミトコンドリアはαプロテオバクテリアの一種が、葉緑体はシアノバクテリアの一種が取り込まれたものだという証拠がある
オルガネラがもつゲノムの大部分は、その後の進化の過程で失われたり、宿主の核DNAのに移動したりしたと考えられるが、いくつかの遺伝子は、現在でもオルガネラがもつゲノム上にある
オルガネラのゲノムはオルガネラの分裂に合わせて複製される
「ある生物のゲノム」
それがオルガネラのゲノムを含むかどうかについての厳密な定義はない
明確に区別をしたいときには、核ゲノム、ミトコンドリアゲノム、葉緑体ゲノムといったように明示したほうがよい
核ゲノムとオルガネラゲノムは核相、突然変異率、コドンなど、多くの違った特徴を持っている
Column 倍数体生物
倍数体生物(polyploid)
生活環としての倍数性とは別に、植物などのいくつかの真核生物ではゲノムの倍数化が起こっている
これは複製の二倍体ゲノムのセットをもつことを意味
四倍体の生物の一つの細胞が、減数分裂によって4つの配偶子を作る、というわけではない
四倍体である生物の配偶子は2セットのゲノムをもつ配偶子(単数体)を作り出す
一倍体(monoploid)
セット数をもとに数えて1セットのゲノムをもつもの
同質倍数体(autopolyploid)
同じセットのゲノムが倍数化してできた倍数体
同質倍数体は、ゲノムが倍数化した直後は同じ染色体を複数セットもっているが、長い時間が経つと、それぞれの染色体セットのDNAに変異が蓄積し、生存に必須ではない遺伝子の欠損が起こったりする
このようにして進化が進むと、多くのゲノム配列が欠失し、過去のゲノムの倍数化の痕跡が失われていく
脊椎動物の共通祖先は過去2回のゲノムの倍数化を起こしたと考えられているが、その後、多くの遺伝子では、倍数化によって増えた遺伝子の欠失が起こっている
したがって、現存する脊椎動物が倍数体生物であるとは一般的にはよばない
しかし、ごく最近に異質倍数体となったアフリカツメガエル(Xenopus laevis)などの例が知られており、これらは倍数体生物と呼ばれる
異質倍数体(allopolyploid)
異なったセットのゲノムが組み合わされてできた倍数体
パンコムギ(Triticum aestivum)は、3種の祖先型コムギのゲノムから由来する、異質六倍体
1.5.2 ゲノムサイズと反復配列
ゲノムサイズ
ゲノムの大きさを表す一般的な用語で、通常単数対ゲノムを構成する塩基対の長さで表現する
ゲノムサイズは歴史的にはC値(C-value)とよばれる、1細胞あたりに含まれるDNA量をもとに推定されてきた
ただし現在では、シークエンス技術の発達によって、ゲノムの全塩基配列を決めることで直接的にゲノムサイズを推定することも可能にあっている
原核生物ゲノム
NCBI(National Center for Biotechnology Information)には、およそ12万6千の原核生物ゲノム配列が登録されている
これらのゲノムサイズは約0.1~15Mbpであり、約200~10,000個の遺伝子をもつ
原核生物のゲノムサイズは、ゲノムがもつ遺伝子数と非常に強い正の相関をもつ
これは、原核生物のゲノムは、タンパク質をコードするコード領域(coding region, CDS)で多くが占められており、真核生物のゲノムに見られるような、長い非コード領域(non-coding region)をもたないことによる
また、ウイルスは一般的には生物と考えられていないが、核酸を遺伝物質として持つ
ウイルスは自律的な増殖を行うことができず、ゲノムサイズはほとんどのの場合非常に小さが、100Mbp以上の巨大なDNAはゲノムをもつメガウイルスも知られている
また、2本鎖DNAだけでなく、部分的に1本鎖DNAはをもつものや、DNAではなくとRNAをゲノムとしてもつものも存在する
真核生物ゲノム
真核生物のゲノムサイズは遺伝子数とおおよそ正の相関を示すが、非常に大きな多様性をもつ
反復配列(repeat sequence)の存在
似た配列が繰り返された配列の存在
ヒトゲノムのおよそ半分は、反復配列から構成されている
ゲノム中の反復配列の割合は、生物種によって大きく異なっている
ヒトゲノム: およそ半分, ショウジョウバエや線虫(Caenorhabditis elegans)など: 1割以下
これらの観察結果は、ヒトのほうが大きいゲノムをもち、ゲノムの中に遺伝子が占める割合が低いことと対応している
植物のゲノムにも反復配列が大量に存在することがある
トウモロコシ(Zea mays): およそ85%がトランスポゾン
脊椎動物のなかでも、ヒトよりゲノムサイズの大きい種は多数知られており、サンショウウオのなかには約120Gbp(ヒトゲノムの約40倍のサイズ)ものゲノムをもつものも存在する
Column 反復配列の種類
サテライト配列
数bp~約100bpの長さをもつ反復配列
マイクロサテライト配列(microsatellite sequence, or 単純反復配列)
数bpのサテライト配列
ヒトゲノムのおよそ3%
マイクロサテライト配列は突然変異率が非常に高いため、染色体ごとに異なったアレルを持っている確率(ヘテロ接合度)が高い
したがって、疾患遺伝子を見つけるための染色体マーカーや、DNAによる個人・親子識別などにしばしば用いられる
散在性反復配列
ゲノム中のさまざまな箇所に散財する反復配列
table:ヒトゲノム中の散在性反復配列の概略とその数
長さ コピー数 ゲノムに占める割合
LINE 6~8kbp 850,000 21%
SINE 100~300bp 1,500,000 13%
レトロトランスポゾン 1.5~11kbp 450,000 8%
DNAトランスポゾン 80~3kbp 300,000 3%
LINE(long interspersed elements)
散在性反復配列のうち、最も多くのヒトゲノム領域を占める
SINEとは違って、自ら(DNA)逆転写酵素をコードしている
自らが転写されるとその逆転写作用によって自身のDNAコピーを作り出し、ほかの領域に広まっていく
SINE(short interspersed elements)
自らの逆転写酵素をもっておらず、その逆転写はほかのトランスポゾンがもつ逆転写酵素に頼らざるをえない
Alu配列
SINE配列のうち最も多くあるグループ
AluIという制限酵素でヒトゲノムを切断すると、特徴的な長さのDNA断片が得られることから命名されたもの
レトロトランスポゾン(retrotransposon)
レトロウイルス由来
DNAトランスポゾン(DNA transposon)
トランスポザーゼをコードする
一般的にはDNAトランスポゾンはカットアンドペースト型のコピーでゲノム中を移動するのに対して、LINE、SINEなどの逆転写型の反復配列はコピーアンドペースト型のコピーでゲノム中に増えていく
セグメント重複
数kbp〜数百kbpの長さのゲノムのブロックが重複したもの
染色体間での重複と染色体内での重複とに分けることができる
ヒトゲノム中では、およそ5%程度のゲノム領域がセグメント重複からなるとされている
また、ヒトやほかの類人猿では、巨大な回文(パリンドローム)構造をとるセグメント重複領域が、雄特異的なY染色体領域のおよそ4分の1を占めていることが知られている
1.6 DNA鎖の複製と突然変異
ハイブリダイゼーション(hybridization)
2本鎖DNAを含んだ溶液を加熱すると、相補鎖間の水素結合が切断され、2本鎖が乖離し、それぞれ1本鎖になる
溶液の温度が低くなると、乖離した1本鎖は再結合するが、このとき、別の1本鎖DNAを溶液に加えると、塩基配列が似た、または同じDNA鎖どうしが自然に会合する
ハイブリダイゼーションはDNAとRNAの間でも起こる
DNA-DNAハイブリダイゼーション
DNA-RNAハイブリダイゼーション
塩基配列が一致しているほど、ハイブリッド2本鎖DNAの熱に対する安定性が高くなる
この現象は、第8章で述べるDNAマイクロアレイや塩基配列の解読手法にも利用されている
DNAが相補鎖を作る仕組みを利用して、DNAの複製(replication)が行われる
https://gyazo.com/3bd7a2d8fa5fe47c32d327fd0dfbecc2
細胞が分裂する前の段階でDNAの合成が行われる(DNA合成期, S期)
この時期の細胞では、2本鎖DNAが酵素(DNAヘリカーゼ)によりほどかれ、5'→3'方向の鎖を鋳型として連続的に相補鎖が合成される
反対側の鎖については、まず短い断片(岡崎フラグメント)が多数合成され、後に1本につなぎ合わされる
1.6.1 DNAに起こる突然変異
DNAの複製では、まれにエラーが起こる
たとえばアデニンをもつDNA鎖の相補鎖を合成するときに、チミンではなくグアニンをもつヌクレオチドが取り込まれることがある
この間違いを校正する分子機構(校正機構)も存在するが、必ずしも校正が成功するわけではない
また、細胞の中でDNAがもつ塩基が、化学修飾を受けて変化したり、電子を奪われて性質が変わったりすることもある
このような場合も、DNAポリメラーゼが誤った塩基をもつヌクレオチドを相補鎖として取り込むことがある
DNAレベルにおける突然変異
https://gyazo.com/2315af2bdbc9cdfcf953dddb75f9eb66
以上のようなDNA複製のエラーが原因で、ごくまれな確率で誤った塩基が娘細胞に伝えられることがある
DNAに突然変異が起こったからといって必ずしも表現型に影響があるとはいえないことに注意
点突然変異(point mutation): 1塩基が変化して起こる変異
非同義変異(nonsynonymous mutation)、ミスセンス変異(missense mutation)
コードされたアミノ酸の配列を変えるような点突然変異
同義変異(synonymous mutation)、サイレント変異(silent mutation)
アミノ酸の配列を変えないような点突然変異
点突然変異以外の突然変異
挿入(insertion)
欠失(deletion)
重複(duplication)
逆位(inversion)
マイクロサテライト配列は挿入や欠失がよく起こる塩基配列として知られている
遺伝マーカー(genetic marker)
遺伝的な違いを区別する指標となる変異
変異を持っている個体と持っていない個体とを区別することができる
多細胞生物では、生殖系列細胞で起こった突然変異だけが次世代に伝えられる
https://gyazo.com/0f204e8ae9095bddfd4650e13fde9d68
生殖系列細胞突然変異](germline mutation)
ヒトの生殖系列細胞突然変異率は、世代あたりサイトあたりおよそ$ 1 \times 10^{-8}〜$ 2 \times 10^{-8}とされている
ヒトゲノムは約32億bpから構成されているため、片親からのゲノムにつき世代あたりおよそ30~60子の突然変異が子どもに伝えられる
ヒトで行われた大規模な家系ゲノム解析では、突然変異の数は、子どもが産まれたときの(母親ではなく)父親の年齢と強い相関を示すことが報告されている
この現象は、精子を作る精母細胞の細胞分裂数は時間とともに増えていくが、卵を作る卵母細胞は、胎児の段階ですでにほとんどの分裂を終えていることが原因であると考えられている
体細胞突然変異(somatic mutation)
体細胞で起こった突然変異は次世代に伝えられることはない
まれにがん(cancer)の原因となる
がんは多くの場合、体細胞突然変異により細胞の増殖システムが異常をきたしてしまったことにより生み出される
がん細胞がもつゲノムを調べることにより、それぞれのがん種が特徴的にもつ変異パターンや、がんの原因となる突然変異が明らかにされている
1.6.2 突然変異率の偏り
化学的性質などの違いにより、突然変異率は塩基種ごとに異なっている
トランジション(transition)型の変異
ピリミジン塩基同士
トランスバージョン(transversion)型の変異
プリン-ピリミジン間
ヒトゲノムでは、トランジッション型の変異率は、トランスバージョン型の変異率より2倍ほど高いことが知られている
塩基の突然変異率は周辺の配列によっても左右される
よく知られている例では、メチル化シトシンの脱アミノ化(deamination)が存在する
https://gyazo.com/53965a706816f2315e32e7e686316a88
シトシンのなかには、塩基にメチル化の修飾を受けているものがある
動物の多くでは、シトシンの次にグアニンが並んだCpG配列のシトシン塩基がメチル化されている
pは塩基間のホスホジエステル結合
植物ではCpGに加え、CpH, CpHpHなど、様々な状況のシトシンがメチル化されている
HはG以外の塩基
DNAの片方の鎖のシトシンだけがメチル化されていると、もう片方の鎖のシトシンをメチル化する酵素が存在する
この仕組によりメチル化の情報が維持され、娘細胞に伝えられる
エピジェネティック変異(epigenetic mutation)
後天的な遺伝情報の修飾
その他のエピジェネティック変異の例として、ヒストン修飾
DNAが巻き付いているヒストンが化学修飾を受ける
メチル化シトシンは容易に脱アミノ化し、チミンに変換されることが知られている
この場合、CpGの最初のシトシンがチミンになるとTG、2番目のグアニンと相補的に結合するシトシン(CGの逆相補配列もCGであることに注意)がチミンになるとCAという配列になる
このタイプの変異は非常に多く、ゲノム中におけるCpG配列は、塩基がランダムに出現すると仮定して偉える期待値よりもずっと低い頻度でしか現れない
CpG配列における興味深い現象の一つが、哺乳類ゲノムに見られるCpGアイランド
ゲノム中のCpG配列の多くはメチル化を受けているが、哺乳類の遺伝子5'領域にはしばしばメチル化されていないCpG配列が、ゲノムの中の島のようにクラスタとして存在する
このようなCpGアイランドは、遺伝子発現の制御に重要な役割を果たしていると考えられる
DNA配列レベルでは「50%以上のGC含量をもち、CGという並びの数が期待値の60%以上になっている200bp以上のゲノム領域」をCpGアイランドとして定義することが多い
CpGアイランドにおいても、多くの場合、CpGの出現確率は、期待値よりも低いことに注目
メチル化が要因となる突然変異率の偏り以外にも、リーディング鎖とラギング鎖で突然変異率の違いがあることが知られている
また、突然変異はのゲムのすべての領域において一定の確率で起こっているわけではなく、突然変異率が高い領域や低い領域が存在することが知られている
1.7 さまざまな仕事をするRNA
1.7.1 RNAの種類
RNA
1.7.2 RNAの転写
RNAは非常に不安定な物質なので、その配列を決定する場合には、試験管内でRNAポリメラーゼ(RNA polymerase)を用いてRNAと相補的なDNA(cDNA)を合成し、その配列を決定する場合が多い
したがって転写産物の配列を表す場合には2つの流儀がある
RNAそのものの配列としてUを使う
cDNAの配列としてTを使う
転写開始点(transcription start site)
RNAの転写が始まる場所
転写の機構は原核生物と真核生物とで大きく異なっている
転写調節領域
プロモーター(promoter)
一般的な真核細胞では転写開始点の上流(塩基配列の5'側)
この領域に基本転写因子(general transcription factor)が集まることにより転写が始まる
エンハンサー(enhancer)
プロモーター近傍の複数の領域
ここに転写因子(transcription factor)が結合することにより、転写の開始が調節される
遺伝子近傍だけでなく、数kbp以上離れた場所に位置することもある
真核生物、とくにヒトのような生物では、転写開始点の位置はある程度揺らいでいるし、一つの遺伝子が複数のプロモーターを使って転写されたりもする
選択的スプライシングを介した転写産物の多様化により、一つの領域から様々な種類のmRNAが生み出されている
原核生物の転写開始点には比較的強い転写開始シグナルが存在し、スプライシングも起こらない
真核生物のほうが同じ遺伝子数でも多様なmRNAをもちうる
1.7.3 RNAのスプライシング
https://gyazo.com/5233162789314eaf8c2f15efcbdcc9a9
スプライシング
未成熟mRNAからイントロン(intron)の除去
エクソン(exon)が残る
ドナーサイト: イントロンの5'側
アクセプターサイト: イントロンの3'側
イントロンに特徴的な配列
標準的スプライシングシグナル
イントロンのドナーサイトGT、アクセプターサイトAGという組み合わせ
哺乳類ゲノムのイントロンの99%は標準的スプライシングシグナルをもつ
ポリピリミジントラクト(polypyrimidine tract)
アクセプターサイトの直前にCとTが10bp程度連続する
ブランチポイント(branch point)
イントロンが除去される際に投げ縄構造を作る
選択的スプライシング(alternative splicing)
https://gyazo.com/72a07decffa088d12312dca2cc4f7bdf
1種類の未成熟mRNAが異なったスプライシングも受けることもしばしばあり、組織ごとに異なった成熟mRNAが作られる場合もある
エクソンをスキップするものや、イントロン中の異なったドナー・アクセプターサイトが使われるものなど様々なタイプが存在する
また、タンパク質をコードしない成熟mRNAが生産される場合もある
アイソフォーム(isoform)
選択的スプライシングにより、同じ遺伝子から作られた異なったタンパク質同士
エクソンもスプライシングの多様性に関わっている
エキソニックスプライシングエンハンサー(exonic splicing enhancer, ESE)配列
いくつかのタンパク質がスプライシング時に結合して、エクソンの両端でスプライシングを促進したり抑制したりする
ESEに起こった突然変異は、アミノ酸を変えない変異であっても、スプライシングの異常を引き起こす可能性がある
1.7.4 RNAがとる立体構造
RNAの機能の多くは、1本鎖RNA分子内での相補的結合を基盤とした立体構造をとることで達成されている
代表的なものとして、tRNAにも見られるステム-ループ構造(stem-loop structure, ステム-ループ)
相補的結合を基盤にした立体構造を、RNAの二次構造(secondary structure)とよぶ
RNA分子はその後さらに折りたたまれ、三次構造(tertiary structure)をとる
ステムループ構造の場合、相補的なRNA塩基配列が逆向きに連結されて存在することになるので、塩基配列からその二次構造を予測することが可能
RNA二次構造の予測は、相補性などを利用し、小さい自由エネルギー(free energy)をとる構造を探索することによって行われることが多い
1.8 遺伝情報の翻訳
ポリペプチド(polypeptide)
アミノ酸(amino acide)がペプチド結合(peptide bond)によって数珠つなぎになったもの
つながったアミノ酸の数が少ないものを単にペプチド(peptide)とも呼ぶ
ポリペプチドは折りたたまれることによってタンパク質として機能する
mRNAはリボソームを舞台とする翻訳機構によってタンパク質に翻訳される
3塩基を1組の翻訳対象として、mRNAの上流側にあるAUG配列(cDNAではATG)より開始する
AUGはメチオニン(methionine)をコードするので、翻訳直後のタンパク質のアミノ酸配列は通常メチオニンから始まる
5'非翻訳領域(5' untranslated region, 5' UTR)
翻訳開始点の上流配列
真核生物の翻訳開始点にはコザック配列(Kozak sequence)と呼ばれる特徴的な配列が存在するが、一つのmRNAが複数の翻訳開始点をもつこともある
コザック配列はある程度の自由度を持っており、翻訳開始点が使われるかどうかは、コザック配列がどれだけ典型的であるかに概ね依存している
これらの特徴的な配列はmRNA塩基配列からコード領域を予測するのに役立つ
翻訳
コドンがアミノアシル転移酵素とtRNAに認識され、アミノ酸が次々と結合していく
真核生物の核ゲノムから転写されたmRNAでは、UGA, UAG, UAAが終止コドン(stop codon/termination codon)
オープンリーディングフレーム(open reading frame, ORF)
https://gyazo.com/d98805e163f71e6e67b9a394101ff346
ゲノム配列やcDNA配列のなかで、翻訳開始点(ATG)から終止コドン(TGA/TAG/TAA)までの領域
ランダムな塩基配列ではコドンは$ 4^3=64通りなので$ 3/64の確率で終止コドンが現れる
ランダムに終止コドンが現れる確率を$ \alphaとすると、ランダムな配列の任意のATGから$ n \mathrm{bp}の長さのORFが得られる確率は$ \alpha(1-\alpha)^{n-1}
この確率分布(probabilistic distribution)は幾何分布(geometric distribution)として知られており、その期待値(平均値)は$ 1/\alpha
つまり、ランダムなゲノム配列の任意のATGからは、平均して$ (64/3 \fallingdotseq)21 アミノ酸のORFが得られる
一方通常のタンパク質は100アミノ酸残基以上の長さを持つ
したがって、そのような長さのORFは、もしそれぞれの塩基がランダムに並んでいたと仮定すると、偶然では現れにくいものだと思われる
つまり、ゲノム配列の中に長いORFを見つけた場合には、そのORFは実際にタンパク質として翻訳されている可能性が高い
ヒトゲノムの中の既知タンパク質をコードするORFの長さは、平均すると約 1.3kbp
フレームシフト突然変異(frameshift mutation)
3の倍数ではない長さの挿入や欠失などの突然変異により読み枠がずれると、多くの場合、正常な位置よりも5’側上流に終止コドンが現れ(未成熟終止コドン)本来よりも短いタンパク質が翻訳される
ORFfinder
NCBIのウェブサイトにある任意の塩基配列からORFを見つけるツール
https://www.ncbi.nlm.nih.gov/orffinder/
標準遺伝暗号(universal genetic code)
ヒトを含む幅広い真核生物で用いられているもの
遺伝暗号は生物種によって少々異なっている場合がある
真核生物細胞中に存在するミトコンドリアは、核ゲノムと少し異なったコードをもつ
生物が使うアミノ酸は20種類、コドンは64種類存在→いくつかの異なったコドンが一つのアミノ酸をコード(縮重)
多数を占めるもの
4重縮重コドン
コドンの3番目の塩基がどれになっても同じアミノ酸をコードする
2重縮重コドン
コドンの3番目の塩基のうち2種類が同じアミノ酸をコードする
3番めの塩基がトランジッション型で変化した場合には同じアミノ酸をコードし、トランスバージョン型で変化した場合には異なったアミノ酸をコードする
特殊なコドン
6重縮重コドン
セリン(serine)とアルギニン(arginine)は6種類のコドンによってコードされる
標準遺伝暗号にいて例外的なアミノ酸
3重縮重コドン
イソロイシン(isoleucine)
縮重がないコドン
メチオニン(methionine)
トリプトファン
縮重という性質を利用して、塩基配列に起こる突然変異を、非同義変異と同義変異に分類することができる
進化の過程で遺伝子が早く進化したか、遅く進化したかを判断する指標を得ることができる
1.9 タンパク質のアミノ酸配列
1.9.1 タンパク質とアミノ酸の構造
アミノ酸
中心となる炭素原子($ \mathrm{C\alpha})に水素、カルボキシ基、側鎖、アミノ基が結合している化合物
鏡像異性体であるL型とD型が存在する
https://gyazo.com/5a512267c343cbcd3008a2cac3b4eb13
L型アミノ酸
炭素原子を水素原子のほうから見ると、カルボキシ基、側鎖、アミノ基が時計回り
自然界のタンパク質は20種類のL型アミノ酸からなる
D型アミノ酸
生物がタンパク質に用いることはないが、その理由は不明である
1.9.2 アミノ酸の性質
アミノ酸の性質は主に側鎖の電荷、極性、体積によって分類されている
タンパク質の立体構造はこれらの特徴によって大きく変わると考えられている
e.g. 疎水性のアミノ酸はタンパク質の内部に多く、親水性のアミノ酸はタンパク質の表面に露出していることが多い
アミノ酸の体積が変われば、アミノ酸分子間にはたらくファンデルワールス力が変化し、立体構造が変わる可能性がある
アミノ酸の極性と体積の違いをユークリッド距離として計算した値は、アミノ酸の進化的な変化(置換)の起こりやすさに相関していることが知られている
このことは、二つの性質が似たアミノ酸は、タンパク質の機能や構造をあまり変えないので、進化のうえで相互に置換が起こりやすいことを示唆している
アミノ酸はこれらの性質により、大まかにいくつかのグループに分けられる
1.10 タンパク質の立体構造
1.10.1 アミノ酸の結合様式
タンパク質の一次構造(primary structure)
アミノ酸の繋がり方の順番(アミノ酸配列)のこと
アミノ酸配列は、塩基配列と並び、バイオインフォマティクス解析が扱う最も基本的なデータの一つ
アミノ酸配列の長さの単位はアミノ酸残基(aa)
異なったアミノ酸どうしのアミノ基とカルボキシ基は、ペプチド結合でつながる
https://gyazo.com/1370b115e6abcb0a22221caba15c29fb
このときのC-N結合は部分的な二重結合性をもつため、ふたつの$ \mathrm C\alphaをつないでいる分子は、すべて同じ平面上に存在する
したがって、アミノ酸間のつながりの角度は$ \mathrm{C\alpha}とアミノ基の$ \mathrm{N}との間の回転角$ \phi, $ \mathrm{C\alpha}とカルボキシ基の$ \mathrm{CO}tの間の回転角$ \psiとによって記述される
この二つがとりうる角度(二面角)は、側鎖やカルボキシ基の酸素原子、アミノ基の水素原子、$ \mathrm{C\alpha}の水素原子の衝突によって制限されている
1.10.2 タンパク質の高次構造
ポリペプチドのなかには、翻訳された後に切り離され、最終的なタンパク質の構成成分とならないものもある
代表的なのはシグナルペプチド(signal peptide)
タンパク質が細胞のどこに輸送されるかの情報を含んでいる
シグナルペプチドが切り離されたタンパク質は、複雑な3次元構造に折りたたまれて機能する
タンパク質のフォールディング(folding)
通常自発的に起こるが、分子シャペロンなどの、他の分子の仲介によりなされることもある
一般的には、タンパク質は熱力学的に安定な構造をとっており、自由エネルギーが小さい状態にあると考えられている
タンパク質は局所的にはまず二次構造(secondary structure)をとる
https://gyazo.com/0cb755e90506939a4b0e2b68b4b68c93
αヘリックス(alpha helix)やβシート(beta sheet)
これらの二次構造が組合わされ、タンパク質ドメイン(protein domain)が作られる
タンパク質の機能単位
酵素活性をもったり、他のタンパク質との結合に関与したりする
タンパク質の三次構造(tertiary structure)
タンパク質ドメインが集まって最終的に作られる
タンパク質の特定の領域によっては、安定した構造をとらず、比較的ゆるい構造をとることが知られている
天然変性タンパク質(natively unfolded protein): このようなタンパク質
ディスオーダー領域(disordered region): 決まった立体構造をとらない領域
これらのタンパク質または領域は、ほかの物質との何らかの相互作用などにかかわっているのではないかと考えられている
四時構造(quaternary structure)
異なるポリペプチドによる高次構造
実際のタンパク質は、複数のポリペプチドが組み合わさって複合体を作ることが多い
ダイマー(dimer): 二つのポリペプチドが組み合わさった複合体
ホモダイマー: 同じポリペプチド同士
ヘテロダイマー: 異なったポリペプチド同士
真核生物の核膜孔複合体(nucleoporin complex)は、100種類以上のポリペプチドの複合体であることが知られている
1.10.3 タンパク質のフォールディング
生体内でタンパク質を構成するアミノ酸は20種類あるので、長さ$ naaのタンパク質では、$ 20^n通りのアミノ酸の組み合わせが考えられる
多くのタンパク質では$ n > 100であるので、可能なアミノ酸の組み合わせはほぼ無限
どのようにタンパク質の構造を予測すればよいか
1961年にクリスチャン・アンフィンセン(Christian Boehmer Anfinsen Jr.)は、変性を受けたリボヌクレアーゼが、試験管内(in vitro)で、活性をもつタンパク質に再びフォールディングされる現象を発見した
この現象は、その後ほかのタンパク質でも確認され、タンパク質フォールディングの基本的な性質を表していると考えられている
アンフィンセンのドグマ(Anfinsen's dogma)
この現象が意味するところは、タンパク質の一次構造が、その後の立体構造を決定する本質的な情報をすべて含んでいることを示している
基本的にはすべてのタンパク質で成り立っていると考えられる
アンフィンセンのドグマが成立するならば、タンパク質の一次構造から複雑な立体構造を予測することが原理的には可能である
漏斗モデル(funnel model)
https://gyazo.com/c4c7e589c064d1131b2d4962285f4dd9
タンパク質が規則的な構造に折りたたまれていく過程を表現するモデル
タンパク質が安定的で規則的な構造をとるということは、自由エネルギーが小さい状態へと映るということであり、その過程で、次第にとりうる構造の形が制限されていき、最終的にはいくつかの安定的な構造をとる
この過程は常に熱による撹乱を受けているので、タンパク質は、局所的には安定だが自由エネルギーが大きい状態(局所的最適)である構造から抜け出したり、複数の安定的な構造を同時にとったりすることがある
タンパク質の安定性は、折りたたまれていない状態と折りたたまれた状態との自由エネルギーの差によって決定される
折りたたまれていない状態に対して、折りたたまれた状態がより小さい自由エネルギーをもっていれば、その構造はより安定であるといえる
→第2章 遺伝と進化に関する基礎知識